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的 技术 性 突破 ， 己 被 广泛 应 用 于 数 
通过 微 阵列 技术 得 到 的 基因 
据 ， 通常 表示 为 矩阵 式 ， A 


基于 FCBF 特征 选择 和 集成 优化 学 习 的 基因 表达 数据 分 类 算法 


摘 要: 针对 微 阵列 基 


马 超 


(深圳 信息 职业 技术 学 院 数字 媒体 学 院 , 广东 深圳 518172) 


因 表 达 数 据 高 维 小 样本 、 A 的 问题 ， 提 出 一 种 FCBF 特征 选择 和 集成 优化 学 习 的 


分 类 算法 FICS-EKELM。 首 先 使 用 快速 关联 过 滤 方 法 FCBF 滤 除 部 分 不 相关 特征 和 噪声 ， 找 出 与 类 别 相关 性 较 高 的 特 


征集 合 ; 其 次 ， 


运用 抽样 技术 生成 多 个 样本 子 集 ， 在 每 个 训 RN 用 改进 乌鸦 搜索 算法 同步 实现 最 优 特征 子 集 选 


择 和 核 极限 学 习 机 KELM 分 类 器 参数 优化 ， 然 后 基于 基 分 类 器 构建 集成 分 类 模型 对 目标 数据 进行 分 类 识别 ， 此 外 运用 


多 核 平 台 多 线程 并 行 方式 进 一 


步 提高 算法 计算 效率 。 在 六 组 基因 数据 集 上 的 实验 结果 表明 ， 不 仅 能 用 较 少 特征 基因 达 


到 较 优 的 分 类 效果 ， 并 且 分 类 结果 显著 高 于 已 有 和 相似 方法 ， 是 一 种 有 效 的 高 维 数据 分 类 方法 。 
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Gene expression data classification based on FCBF feature selection and 


ensemble optimized learning method 
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Abstract: In order to solve the problems of microarray gene expression data with the characteristic of high dimension and small 


sample, high redundancy and a lot of noise, this article proposed a novel model FICS-EKELM, which was build based on the 


combination FCBF feature selection and ensemble optimized method, for gene expression data classification. In the proposed 


method, Fast Correlation-based Filter method(FCBF) firstly used to eliminate the irrelevant features and noise, and chose the 


discriminate feature subsets. Secondly, bootstrap technology produced many sample training subsets, by means of these subsets, 


the improved crow search algorithm(ICS) used to select optimal feature subsets and parameters for kernel extreme learning 


machine(KELM) synchronously. And then, ensemble classifiers were constructed for target gene data classification, which based 


on the basic classifiers. Moreover, the model implemented in parallel on multi-core processor, which used OpenMP to Speed up 


the search and optimization process. Experiment on six public famous gene datasets, the proposed method not only achieves a 


higher classification performance with less characteristic genes, but also greatly improves the classification accuracy. It proves 


the effective and validity of the proposed method. 


Key words: feature selection; ensemble learning; microarray gene expression data; crow search algorithm; kernel extreme 


learning machine 


分 类 研究 难以 解决 趾 ， 如 何 进行 有 效 特征 选择 和 分 类 以 识别 出 
1 贡献 的 基因 ， 提 高 分 类 效果 ， 成 为 基因 表达 
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意义 ”数据 分 类 研究 的 关键 问题 之 一 。 


DNA 微 阵列 技术 是 生物 信息 学 领域 中 一 个 具有 重 
> 


间 的 互相 关系 以 及 基因 活动 产生 


达 数 据 挖掘 的 一 个 重要 任务 ， 通 过 
为 对 疾病 诊断 和 治疗 提供 可 靠 的 
据 中 存在 维度 高 样本 少 的 “ 维 数 灾难 ”问题 ， 导 致 传统 模式 ”特征 与 类 的 相关 性 ， 削减 特 征 之 间 的 相关 性 ,例如 信息 增益 IG、 
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大 
全 等 多 个 领 近 些 年 ， 对 基因 表达 数据 的 系统 性 分 析 已 成 为 人 工 智能 领 
表达 数据 称 为 微 阵 列 基因 表达 域 中 的 热门 研究 课题 P49。 目 前 有 很 多 数据 降 维 方法 被 用 于 


[un 
| 


析 的 是 基因 发 生 的 改变 ， 基因 ”数据 的 特征 选择 与 识别 。 其 中 基因 特征 选择 方法 是 基因 表达 数 
的 影响 。 分 类 是 微 阵 列 基因 表 ” 据 降 维 最 主要 的 方法 ， 依 据 是 否 独立 于 后 续 的 学 习 算 法 , 可 分 
分 析 微 阵列 基因 表达 数据 可 为 过 滤 式 (Filter) 和 封装 式 (Wrapper) [9]: 
分 类 结果 。 但 微 阵列 基因 表达 a) Filter 法 。Filter 特征 选择 方法 一 般 使 用 评价 准则 来 增强 
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最 小 宛 余 最 大 相关 mRMR、ReliefF 、FCBF、Fisher Score 评分 


Ne 


和 最 小 平方 下 


接 利用 所 有 训练 数据 的 统计 1 
E 
征 子 集 ， 即 使 能 找到 一 个 满足 条 作 


虑 特征 与 分 类 器 之 间 的 相关 


F 的 仇 


日 误差 等 四 。Filter 与 后 续 学 习 算 法 无 关 ， 一 般 直 
性 能 评估 特征 ， 
EE， 并 不 能 保证 选择 出 一 个 优化 特 
化 子 集 ， 它 的 规模 也 会 


但 Filter 方法 未 考 


比较 庞大 ， 会 包含 一 些 明 显 的 噪声 特 生 


的 性 能 偏差 较 大 。 


E， 评 估 与 后 续 学 习 算 法 


b) Wrapper 法 。Wrapper 方法 作为 学 习 算 法 组 成 部 分 , 直接 


以 分 类 器 的 分 类 性 能 作为 特征 


| 内 


重要 性 程度 的 评价 标准 ， 跟 据 选 


辨识 ， 分 类 准确 率 较 高 。 


针对 上 述 两 种 方法 特点 , 目 
Wrapper 的 混合 方法 。 例 如 2016 


mRMR 结合 SVM 方法 对 高 


分 类 结果 ; 同年 谢 娟 英 等 人 乌 为 解决 


维 


癌症 数 扩 


择 的 特征 子 集 构造 最 终 的 分 类 模型 。 这 类 方法 是 特征 选择 研究 
领域 的 热点 , 相关 研究 工作 也 较 多 , 虽然 在 运行 速度 
法 慢 ， 但 所 选择 的 特征 子 集 规模 相对 要 小 得 多 ， 有 利于 特征 的 


前 很 多 研究 采用 的 都 是 Filter 与 
年 Jerzy 等 人 中 利用 ReliefF， 


昌 进 行 分 类 ， 得 到 较 好 的 


基因 特征 选择 难题 ， 提 出 


种 基于 K-S 检验 与 mRMR 原则 的 混合 方法 , 并 以 SVM 为 分 


类 器 ， 以 Fl1 measure、 分 类 精度 
因 选 择 评估 ， 结 果 证 明了 该 方法 有 效 性 ，Lai 等 人 四 将 Filter 和 
Wrapper 方法 结合 提出 信息 增益 IG 和 改进 简化 群 算 法 ISSO 
利用 线性 核 SVM 分 类 器 进行 


和 AUC 作为 评价 指标 进行 基 


09 提 出 结合 最 大 化 交互 信息 MIM 和 自 
征 选择 算法 来 降低 基因 表达 数 ] 
基因 表 达 数 据 维 数 灾难 问题 提出 力 
征 基 因 选 择 ， 结 果 证 明 该 方法 能 解决 传统 旨 
敛 的 问题 ; Chen 等 人 ("1 采用 粗 烽 集 入 计 算 的 方法 用 于 基于 选 


yp 


的 多 分 类 效果 ;Jain 等 人 05 针 对 基 医 
整合 相关 特征 选择 CFS 和 改进 
朴素 贝 叶 斯 分 类 器 进行 分 类 ， 取 得 了 较 高 的 分 类 精度 。 
从 这 些 研究 可 以 发 现 , Filter 和 Wrapper 结合 的 方法 在 基因 


择 , 结果 显示 该 方法 能 够 有 效 提高 肿瘤 数 拉 
等 人 03 引 入 马尔 可 夫 毯 以 改进 Wrapper 方法 进行 基因 特征 选择 ， 
结果 证 明了 该 方法 的 有 效 性 ; 2018 自 
于 ReliefF 和 蚁 群 算法 的 特征 
多 分 类 问题 ， 实 验 结果 证 明 该 方法 


基因 特 和 


E 选 择 ，2017 年 Lu 等 人 
适应 遗传 算法 的 混合 特 
据 维度 ; 同名 
[0 权 离散 旨 


FE Wang 等 人 0 针对 


日 菌 优化 算法 进行 特 
日 菌 优化 算法 过 早 收 


FE 吴 辰 文 等 人 09 提 出 一 种 基 
基因 选择 方法 以 解决 微 阵列 数据 
能 以 较 少 特征 基因 得 到 较 高 


居 的 分 类 精度 ; Wang 


要 比 Filter 


ChinaXiv 合 期刊， 


马 ” 超 : 基于 FCBF 特征 选择 和 集成 优化 学 习 的 基因 表达 数据 分 类 算 ; 


EKELM， 用 于 高 维基 因 表 达 数 据 的 分 类 研究 。 
本 方法 首先 利用 FCBF 特征 选择 进行 初步 特征 选择 ， 剔 除 
掉 数 据 集中 元 余 特 征 及 噪音 ; 然后 使 用 bootstrap 抽样 进行 PCA 
转换 生成 多 个 训练 样本 子 集 ， 在 每 个 训练 子 集 上 采用 改进 乌鸦 
搜索 算法 ICS 同步 进行 最 优 特征 子 集 选择 和 KELM 模型 参数 
优化 ， 得 到 具有 差异 度 的 基 KELM 分 类 器 ， 最 后 构建 集成 
KELM 分 类 模型 ， 并 运用 多 核 平 台 多 线程 并 行 方式 进一步 提高 
算法 运算 效率 ， 最 后 对 测试 集 进行 测试 。 

本 文 工 作 创 新 点 如 下 : 

a) 运 用 FCBF 方法 对 原始 高 维基 因 表 达 数 据 进 行 特 征 降 维 ， 
剔除 掉 数 据 集中 元 余 特 征 及 噪音 , 与 其 它 Filter 方 法 相 比 ,FCBF 
算法 既 考 虑 了 特征 间 相 关 性 又 分 析 了 特征 的 元 余 性 ， 并 且 在 大 
量 实验 比较 中 ，FCBF 被 证 明 具 有 较 低 的 时 间 复 杂 度 和 较 好 的 
特征 选择 结果 ， 而 ReliefF 、IG 以 及 Fisher Score 等 方法 虽然 能 
处 理 不 完备 和 有 噪音 的 数据 ， 但 未 能 很 好 地 处 理 元 余 特 征 。 

b) 提 出 ICS 算法 同步 进行 特征 子 集 选 择 和 KELM 参数 优 
化 ,构建 基 分 类 器 。 乌 鸦 搜索 算法 CSA 简单 易 实 现 、 涉 及 参数 
较 少 ,与 粒子 群 算法 PSO、 遗 传 算法 GA 以 及 人 工蜂 群 算法 ABC 
等 算法 相 比 ， 都 能 得 到 近似 甚至 更 优 的 优化 结 

c) 采 用 集成 分 类 思想 进行 基因 特征 选择 和 分 类 。 

d) 基 于 多 核 处 理 技术 运用 OpenMP 来 实现 模型 并 行 运算 ， 
可 以 有 效 提高 算法 的 效率 。 


< 
i 


1 “理论 介绍 


1.1 FCBF 算法 (fast correlation-based filter) 

基于 快速 关联 的 过 滤 算 法 FCBF073 是 一 种 典型 的 启发 式 序 
列 后 向 消除 方法 ， 使 用 对 称 的 不 确定 度量 来 衡量 两 个 特征 的 机 
关 性 。 算 法 核心 思想 是 采用 对 称 不 确定 性 (Symmetrical 
uncertainty, SU) 作为 度量 标准 ,如 果 一 个 特征 与 类 别 之 间 的 不 确 


HU 


分 类 和 


[癌症 诊断 间 题 提出 


二 元 粒子 群 iBPSO 算法 ， 并 利 


数据 分 类 中 取得 了 很 好 的 效果 ， 但 仍 存在 两 个 主要 问题 : 


a) 大 多 数 算法 采用 的 都 是 SVM 分 类 器 


，SVM 典型 难题 是 


模型 的 参数 选择 问题 ， 这 对 分 类 结果 有 重要 影响 ， 但 对 参数 选 


特征 分 类 方法 研究 很 少 ， 基 


= 


择 没 有 统一 的 标准 和 理论 指导 ; 
b) 现 有 方法 都 采用 单一 分 类 器 模型 ， 关 于 集成 学 习 的 基 医 


大 


分 类 器 性 能 而 达到 瓶颈 。 


数据 分 类 的 精度 可 能 会 由 于 单一 


而 核 极 限 学 习 机 (kernel extreme 


learning machine，KELM) 有 具有 比 SVM 和 BP 神经 网 络 (BPNN) 
更 优 的 性 能 444。 基于 上 述 分 析 ， 为 了 克服 上 述 不 足 ， 得 到 准确 
率 更 高 的 分 类 效 模型 ， 本 文 提 出 了 一 种 新 颖 的 分 类 模型 FICS- 


定性 程度 高 ， 且 与 其 它 已 选 特征 之 间 的 不 确定 性 程度 低 ， 则 将 
该 特征 标记 为 重要 特征 。 
FCBF 算法 简单 描述 如 下 : 
给 定数 据 集 Gxi， 办，i=1,.…., 入 ,其 中 xi= [x xiz, ...， Xid]7TER"， t= 

[ 胡 ，t2，...，tim]T'ER”"， 样 本 类 别 为 天 Qi1, ypN). 


Step1: 初 始 化 T 了 和 S;，/*7 为 特征 向 量 集合 ，5 为 特征 子 集 */ 
Step2: 对 于 每 个 he7， 计 算 特 征 与 类 别 的 SU 值 ， 即 SU(i, 站 ， 其 计算 


公式 为 SVG-2| SL | 


H(A)+H(B) 

Step3: 选 出 T 中 SU(t,7)>r 的 特征 ， 根 据 SU 值 降序 排序 并 存 入 8 中 ; 

Step4: 从 8 中 选择 一 个 特征 太 将 点 存 入 8 集合 中 ， 并 从 宁 中 删 掉 6; 

Step5: 计 算 二 与 疙 的 对 称 不 确定 性 SU 值 SU(i, 四 ， 去 除 的 元 余 特 征 ， 
如 果 SU 六 > SU(t, 妨 ， 则 从 S 中 删 掉 三 

Step6:Repeat Step4 和 Step5 until S 为 空 集 ; 

Step7: 输 出 得 到 的 特征 子 集 $. 


1.2 核 极 限 学 习 机 (KELM) 

KELM 是 由 Huang 等 人 09 在 单 隐 层 前 馈 神 经 网 络 模型 
ELM 基础 上 提出 的 方法 ， 它 能 逼近 任意 连续 目标 函数 ， 其 输出 
值 能 以 极 小 误差 逼近 类 标签 值 。 

假设 给 定 和 N 个 训练 样本 集 (xi,t)，i=1,.…, 入 , 其 中 xi= [x 
Xi2, .Xid] 1 ER"， t=[ 轴 ，t2，...，tim] ER”"， 隐 层 激活 函数 为 
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gO0， 隐 层 节点 个 数 为 二 ，ELM 输出 函数 的 计算 公式 为 : 
JCO=Z BCD=PCDO (1) 


其 中 p= [Bn，p2，.….，pir] (j= 2 .…,Z) 表示 连接 第 .7 
个 隐 层 节点 和 输出 层 节点 间 的 输出 权重 值 。 其 中 = {hy) (i 


=1, .…, 入 ;j=1, .…, 了) 为 隐 层 输出 矩阵 ,五 第 j 个 隐 层 节点 的 第 】 
列 对 应 输入 x1, x2, …, Xn， 吾 的 第 i 行 对 应 输入 元 的 输出 向 量 。 
通常 采用 最 小 二 乘法 确定 线性 系统 的 输出 权重 值 ; 


B'=H’'T O) 
其 中 :下 为 隐 层 输出 矩阵 五 的 Moore-Penrose 广义 逆 和 矩阵 。 
之 后 Huang 等 引入 核 函数 避免 ELM 方法 随机 产生 输入 权 

重 和 偏 倚 值 的 问题 ， 提 出 基于 核 函 数 的 ELM 方法 KELM ， 

KELM 输出 权重 的 计算 公式 如 下 : 


P=H'(A+HH YT G) 


因此 ，KELM 输出 函数 的 表达 式 为 : 


f(D=hp=nOH' (VC+HH' YT (4) 


当 隐 层 映射 函数 h(x) 不 可 知 时 , 核 函数 和 矩阵 计算 公式 如 下 : 
Qpm = HH’ IIQaony = hx) h(x))= K(X,,x,) (5) 
其 中 K(xi, 坟 表 示 核 函数 ,KELM 中 核 函 数 为 RBF 核 函 数 ， 
那么 KELM 分 类 模型 的 计 输 出 函数 表达 式 为 : 


K(x,x)T 
f= ... (V+Qgm) TT (0) 
K(x,xy) 


2 改进 乌鸦 搜索 算法 ICS(improved crow search 
algorithm) 


乌鸦 搜索 算法 CSA 是 由 Askarzadeh 于 2016 年 提出 的 一 种 
新 的 元 启发 算法 09， 它 模拟 的 是 


然 界 中 乌鸦 的 智能 贡 食 行为 。 
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运动 是 在 确定 性 非 线性 系统 中 自然 出 现 的 类 随机 行为 ， 它 具有 
确定 性 过 程 同时 也 兼 具 随机 性 P。 混 沌 运动 可 以 使 得 算法 能 够 
跳出 局 部 最 优 的 同时 寻找 全 局 最 优 解 。 因 此 本 文采 用 混沌 映射 
函数 Logistics 对 乌鸦 位 置 进行 初始 化 : 

Xi=A XU-X) Wel[0,4],X, e(0,1) (8) 
其 中 参数 y 用 于 控制 混沌 程度 。 
通过 感知 概率 4P 进行 动态 调整 以 达到 全 局 搜索 和 局 部 搜 
索 的 平衡 状态 , 由 于 乌鸦 位 置 的 更 新 影响 着 最 优 解 和 收敛 速度 ， 


引入 混沌 算法 进一步 优化 乌鸦 搜索 位 置 的 更 新 ， 位 置 更 新 的 表 
达 式 如 下 : 
i xX" +w rp fl (mm —x"), if w.>AP” (9) 


rand (Xa — Xunin)t+Xnins else 

其 中 wi 表示 在 第 i 代 时 得 到 的 混沌 映射 值 ，w: 表示 在 第 z 
代 得 到 的 混沌 映射 值 ，4P* 表示 马 鸦 j 在 1 代 时 的 感知 概率 ，ri 
和 已 是 [0,1] 区 间 均 匀 分 布 的 随机 数 。 

公式 (9) 可 知 ,通过 混合 函数 的 引入 进一步 平衡 算法 全 局 
搜索 和 局 部 搜索 ， 对 全 局 搜索 和 局 部 搜索 进行 更 加 灵活 地 动态 
扰动 ， 在 前 期 w 值 较 大 确保 全 局 搜索 占 较 大 权重 ， 提 高 种 群 搜 
索 的 多 样 性 , 到 迭代 后 期 , wi 值 变 小 , 使 得 局 部 搜索 权重 加 大 ， 
加 速算 法 收敛 。 

当 乌 鸦 i 的 位 置 发 生 改变 ， 则 更 新 记忆 值 表达 式 如 下 : 


Mi We 让 f(x )>SFM") 
M'', else 


(10) 


其 中 ，M 7 表示 乌鸦 记忆 值 ，KAM 表示 适应 度 值 。 

对 于 二 进 制 乌鸦 搜索 算法 在 离散 空间 内 进行 搜索 ， 每 个 解 
表示 为 1 或 0， 引 入 映射 函数 SCo) 将 连续 空间 的 值 转换 到 离散 
空间 [0,1]， 计 算 公 式 如 下 : 


MT = 1, if f(SCM"")) > randO 
0, else 


(11) 


其 中 rand() 为 [0,1] 区 间 均 匀 分 布 的 随机 数 。 映 射 函 数 S(x) 


在 求解 最 优 问题 时 , 假定 入 只 乌鸦 随机 分 布 在 n 维 搜索 空 
间 中 ，x 全 [x1 x225..., X29( 二 1,2,...,N; 三 1,2,.….,Maxiter) 表 示 第 i 
只 马 牙 在 第 1 次 迭代 时 的 位 置 。Mi! 表 示 乌 鸦 i 在 第 t 次 迭代 时 
隐藏 食物 的 记忆 值 , 即 最 优 位 置 。4P*! 表 示 乌 鸦 i 在 第 1 次 迭代 
时 的 感知 概率 4P， 大 :表示 乌鸦 ;在 第 上 次 欠 代 时 的 飞行 长 度 ; 

对 乌鸦 搜索 算法 进行 初始 化 控制 参数 设置 ， 所 述 初始 化 控 


表达 式 如 下 : 
1 


1 二 el000 -0.5) (12) 


S(M"™"™!) Ee 


3 FICS-EKELM 模型 


本 节 对 FICS-EKELM 模型 进行 详细 说 明 , 模型 整体 架构 如 


制 参数 包括 种 群 群体 数量 M、 感 知 概率 4P、 飞 行 长 度 1 以 及 
最 大 迭代 次 数 Maxiter; 

传统 乌鸦 搜索 算法 是 随机 初始 化 位 置 ， 公 式 如 下 所 示 : 

XxX" = rand (x — Xn ) + Xo (7) 

其 中 , x 为 乌鸦 随机 产生 的 位 置 ，xmax 为 x 的 最 大 值 ，xmin 
为 x 的 最 小 值 ，rand 为 [0,1] 区 间 随 机 生成 数 。 

但 是 随即 初始 化 导致 个 体质 量 无 法 保证 ， 如 果 初 始 解 群 较 
好 ， 将 会 有 助 于 求解 效率 与 解 的 量 ， 如 果 不 好 则 会 影响 求解 效 
率 ， 增 加 了 不 确定 性 ， 一 个 好 的 初始 化 种 群 能 够 确保 算法 更 快 
地 收 化 ， 本 文 将 混沌 算法 优化 乌鸦 搜索 来 解决 上 述 问 题 。 混 汪 


图 1 所 示 。 
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图 1 FICS-EKELM 模型 的 总 体 流程 
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录用 稿 
3.1 产生 训练 子 集 

为 保证 数据 样本 的 多 样 性 , 引入 旋转 森林 算法 思想 P21 ， 通 
过 boostrap 抽样 方法 从 原始 数据 中 随机 抽取 样本 ， 并 进行 PCA 
转换 , 产生 新 样本 集 。 假设 原始 数据 集 样 本 为 Z， 类 标号 为 也 
新 的 训练 集中 样本 数 为 上 产生 训练 样本 的 算法 具体 过 程 如 下 
所 示 : 


Input: Original datasets X 
Output: Sub_datasets(71, 72,..., TA) 


Begin 
Fori=1tok 
[sub_X, sub_Y] = randomsub (X); 
trainX_subnew = bootstrapal(sub_X, sub_Y); ”/* 进 行 抽样 */ 


Coeff= pcasky(trainX_subnew); /* 进 行 PCA 转换 
R_coeff = sort (Coeff); /进行 排 序 */ 
New_sub (i)=trainX subnew* R_coeff; 
End For 
End 
Return: Final sub datasets (71, 72,..., TA) 


3.2 构建 基 分 类 器 模型 

文献 [22] 中 明确 指出 : 对 于 构建 集成 分 类 模型 , 要 得 到 更 高 
分 类 精度 的 充 要 条 件 是 分 类 器 必须 是 准确 且 存 在 差异 的 ， 即 具 
有 较 大 差异 的 分 类 器 集成 模型 具有 更 强 的 性 能 ， 因 此 构建 差异 
性 的 分 类 器 是 一 个 重要 问题 。 与 SVM 一 样 ，KELM 受 其 惩罚 
因子 C 和 核 宽 y 的 影响 较 大 ， 若 取 值 不 当 ， 会 导致 模型 分 类 效 
果 较 差 。 构建 基 于 KELM 模型 差异 性 集成 分 类 器 ， 可 通过 以 下 
两 个 条 件 来 实现 ，(1) 通 过 boostrap 采样 和 PCA 特征 转换 可 得 
到 不 同 的 训练 数据 集 , 使 得 每 个 KELM 模型 得 到 不 同 的 输入 样 
本 ， 保 证 在 不 同 的 训练 数据 集 上 训练 KELM 模型 ，(2) 影 响 
KELM 分 类 性 能 的 重要 参数 惩罚 因子 C 和 核 宽 y， 难 以 人 为 设 
置 ， 采 用 ICS 算法 进行 优化 ， 能 得 到 不 同 的 分 类 模型 ， 从 而 保 
证 数据 多 样 性 和 分 类 器 差异 性 。 
本 文 基 分 类 器 ICS-KELM 的 核心 思想 是 利用 ICA 算法 进 
化 机 制 同步 进行 特征 子 集 选择 和 参数 优化 ， 从 而 得 到 最 优 基 分 
类 器 。 构 建 基 分 类 器 模型 的 流程 图 如 图 2 所 示 , 具体 步骤 如 下 : 

a) 种 群 初始 化 ， 群 体 中 每 个 个 体 由 多 个 特征 属性 离散 值 ， 
以 及 惩罚 因子 C 和 核 宽 y 两 个 连续 值 构成 。 编 码 形式 为 = 
=(1,0,…, 1,1,C, y)， 其 中 1 为 选中 的 特征 ，0 为 未 选中 特征 ; 

b) 利 用 初始 化 个 体 解码 所 得 到 的 参数 在 训练 子 集 上 进行 
KELM 训练 ,计算 每 个 个 体 的 适应 度 值 ,适应 度 值 计算 公式 为 : 


N—|Subset | 
N 


得 出 新 样本 */ 


nl 


Fitness 一 CCCcci 十 (一 CD) 


(14) 


其 中 acci; 表示 第 i 个 解 的 分 类 精度 , NN 为 特征 总 数 , |Subsel| 
表示 选 出 的 最 优 特征 子 集 的 特征 数 ，a 为 调节 分 类 精度 和 特征 
子 集 数量 两 部 分 的 权重 值 , 0<a<1, 本 文中 a 取 值 为 0.8, Fitmness 
表示 KK 折 交 叉 验证 (K-fold Cross Validation, K-fold CV) 平 均值 。 

oO) 增加 迭代 次 数 ; 

d) 更 新 种 群 的 位 置 和 记忆 值 ， 比 较 种 群 个 体 的 适应 度 值 ， 
若 新 的 适应 度 值 大 于 比较 值 ， 则 将 最 优 适应 度 值 记 为 新 适应 度 
值 ; 

6) 利用 上 一 步 得 到 新 的 个 体 进行 解码 所 得 到 的 参数 在 
KELM 上 训练 ， 并 根据 公式 (14) 计 算 其 适应 度 值 ; 
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人 如果 达到 最 大 种 群 数量 ， 转 到 步骤 d 执行 ， 否 则 转 到 步 


又 g 执行 


罗 比 较 当 前 ; 


记录 的 最 优 适 应 度 值 ， 更 新 为 当前 值 ; 


h) 若 达到 最 大 连 


步骤 c; 


i) 输 出 全 


局 最 优 的 记忆 值 位 置 ， 即 为 最 优 解 ; 


利用 得 到 最 优 特征 子 集 和 参数 在 训练 子 集 上 训 
出 最 优 的 基 分 类 器 。 


图 2 ICS 优化 KELM 构建 


适应 度 值 和 全 局 最 优 适 应 度 值 ， 若 当前 值 大 于 


尺 次 数 ， 算 法 转 到 步 又 i 执行， 否则 转 到 


练 ， 构 造 


初始 化 种 群 及 相关 


解 形式 为 
参数 (1,0,..,1,C, 7) 


v 
对 KELM 进 行 训 练 并 
计算 适应 度 值 


i 
增加 迭代 次 数 


vy 

利用 公式 

(9, 10) (14) 更 新 个 

体 当 前 最 优 记忆 位 
置 和 适应 度 值 

vv 


对 KELM 进 行 训练 并 
计算 适应 度 值 


蕊 


达到 最 
大 种 群 数 


if 个 体例 局 最 
记忆 位 置 和 适应 度 
值 


返回 全 局 最 优 解 


3.3 ”集成 分 类 器 模型 


本 文采 


加 权 投 票 法 将 这 些 不 同 的 基 分 类 器 外 


类 器 模型 ， 权 重 系数 
处 理 后 获得 ， 分 类 器 组 
据 样 本 x， 模 型 中 


了 天 个 分 类 器 TK(x)， 


数 投票 策略 得 到 样本 最 终 的 分 类 结果 计 


其 中 65， -| 


式 (15 
3.4 


最 沁 解 多 


天 然 的 


文 提出 基于 多 核 处 理 器 利 
E 架 分 为 三 层 : 


a) 该 层 由 一 系列 粒子 组 


多 核 平台 整体 


K 
T(xX) = argmax > OgncTk Gx),y 
ka 


0, i J 
1, i= 


表示 天 个 分 类 器 Tk(x) 累 积 结果 的 最 大 值 。 
并 行 模型 计算 

对 于 复杂 优化 问题 ，ICS 算法 需要 多 次 更 新 才能 保证 找到 
ICS 算法 的 初始 解 生成 、 适 应 
等 在 算法 中 比较 耗 时 ， 但 它们 是 相互 独立 的 ， 所 以 该 算法 具有 
行 性 。 为 充分 发 挥 ICS 的 并 行 性 ， 提 高 算法 效率 ， 本 


省 分 类 器 的 流程 


基 分 类 器 对 验证 集 的 分 类 准 
合 输出 最 终 的 输出 结果 。 对 了 


Ea yE{-1,1} 是 分 类 器 的 输出 立 


成 为 一 个 分 


度 计 算 、 种 群 位 置 更 新 


E 确 率 归 一 化 


F 给 定 的 数 


k=1, 2, ..., 天， 那么 多 
算 公 式 如 下 : 


(15) 


类 标号 。 公 


] OpenMPP3 来 实现 模型 


行 运 算 ， 


成 ， 


行 算法 控制 整个 ICS 迭代 过 
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程 ， 每 个 个 体 独 立 参 与 整个 运算 过 程 。 4.2 实验 结果 讨论 
b)OpenMP 平台 。 该 层 是 为 保证 实现 并 行 算 法 的 同步 ， 同 为 了 验证 提出 方法 的 有 效 性 ， 实 验 首先 给 出 在 六 组 数据 集 
时 建立 和 操作 系统 间 的 通讯 联系 ， 平 台 核 心 组 件 是 调度 器 ， 能 上 ,提出 的 方法 与 四 种 常用 方法 , 即 分别 基 于 ReliefFf、mRMR、 
给 操作 系统 提供 作业 的 调度 和 分 配 。 IG、CFS 特征 选择 方法 的 分 类 结果 进行 对 比分 析 , 如 表 3 所 示 。 
c) 多 核 处 理 器 。 作 业 在 该 层 通 过 OpenMP 被 系统 调用 。 表 3 各 个 算法 得 到 的 分 类 准确 率 以 及 标准 方差 值 。 从 实验 结果 
并 行 模型 FICS-EKELM 的 伪 代 码 如 下 : 可 以 看 出 ， 在 这 五 种 模型 中 ， 提 出 的 方法 取得 了 最 高 的 分 类 准 
RN 确 率 ， 而 基于 ReliefF、mRMR、IG、CEFS 特征 选择 的 方法 取得 
calculate the fitness; /fitness 为 适应 度 值 */ 的 分 类 结果 明显 低 于 本 方法 ,例如 以 Breast Cancer 数据 集 为 例 ， 
while t<max_iteration /* max_iteration 为 最 大 夫 代 次 数 */ 、、 es ee 
for each solution 本 方法 的 平均 分 类 精度 达到 了 92.98%, 而 其 它 四 种 方法 分 别 只 
date position; , 
ote wiernors 得 到 了 88.42%、85.57%、83.51% 和 81.92% 的 平均 分 类 准确 率 ， 
in KELM 四 i je sj pp 
te tee. 同时 也 说 明了 通过 特征 选择 和 集成 分 类 学 习 ， 能 有 效 提高 高 维 
calculate fitness_best; EI 有 沥 握 的 作业 准确 问 ps = 汪 欣 
0 基因 数据 的 分 类 准确 率 。 此 外 ， 从 标准 方差 值 可 见 本 方法 的 广 
end for; 差 值 较 小 ， 也 证 明了 该 方法 具有 良好 的 稳定 性 。 
calculate fitness_global; 
ealeulate memory. slobal; 为 了 充分 证 明 所 提出 方法 特征 选择 的 有 效 性 ， 表 4 给 出 了 
相册 
end while 五 种 特征 选择 算法 在 六 组 数据 集 上 所 选 特征 个 数 。 其 中 ， 本 方 
法 所 选择 的 特征 个 数 最 少 ， | 次 之 , 这 是 由 于 本 六 
4 实验 分 析 法 所 选择 的 特征 个 数 最 少 , FCS 和 ReliefF 次 之 , 这 是 由 于 本 方 
法 先 使 用 FCBF 筛选 掉 大 量 不 相关 特征 和 噪音 特征 后 ， 叉 利用 
实验 设 i i a ee 
4.1 实验 设置 ICS 搜索 进一步 优化 特征 子 集 选 择 ， 有 效 剔 除 掉 了 宛 余 度 较 高 
为 了 评估 本 方法 对 高 维 微 阵 列 基 因 表 达 数 据 的 有 效 性 ， 分 的 特征 。 
别 选取 Breast Cancer、CNS、Leukemia、 Lung Cancer、 Lymphoma 表 3 五 种 算法 分 类 精度 比较 
以 及 Prostate 六 组 公共 高 维基 因数 据 集 。 各 基因 数据 集 的 信息 Fisher 
如 表 1 所 示 。 数据 集 本 文 方法 “ReliefF ee mRMR FCS 
表 1 基因 数据 集 信息 Breast 92.98 88.42 85.57 83.51 81.92 
数据 集 基因 数量 样本 数量 类 别 Cancer +0.21 40.30 40.34 +0.42 +0.33 
Breast Cancer 2448] 27 91.87 90.13 84.34 88.39 80.96 
CNS 
CNS 7129 60 2 +0.27 40.44 40.42 40.44 +0.73 
uuu 站 机 2 9971 9458 9392 98.52 94.83 
- Lung Cancer 7129 96 2 Ss +0.18 40.33 +0.38 +0.25 +0.45 
一 Lymphoma 4026 62 3 90.79 85.67 86.91 67.67 78.16 
Prostate 12600 102 2 0 +0.25 40.31 +0.29 +0.54 +0.38 
文中 实验 在 Windows7 操作 系统 上 进行 , Intel Core(TM)i5 95.26 90.13 8521 82.67 
处 理 器 ， 主 频 3.2 GHz， 内 存 4GB,， 在 MATLAB2014b 环 境 下 Dmphoma 1000 :046 2035 24039 30 有 
编程 实现 。ELM 和 KELM 采用 MATLAB 工具 箱 。ICS-KELM 0 6 Bs 8 
Se ~ 六 一 Prostate 
算法 的 参数 如 表 2 所 示 。 +0.31 40.39 40.47 +0.36 +0.30 
本 表 4 五 种 方法 选择 的 特征 个 数 比较 
ICS 算法 参数 数值 数据 集 本 文 方法 ReliefF IG mRMR FCS 
种 群 数量 30 Breast Cancer 8 28 30 28 21 
最 大 达 代 次 数 80 CNS 9 45 32 32 29 
飞行 长 度 有 1 2 Leukemia 4 30 34 32 33 
感知 概率 4P 0.1 Lung Cancer 9 31 45 44 32 
此 外 ，ICS-EKELM 模型 实验 结果 与 ELM、KELM、SVM 于 生生 7 31 28 35 31 
以 及 BPNN 等 方法 进行 了 比较 ， 模 型 的 详细 参数 设置 如 下 : 为 人 RE 
本 为 了 更 好 地 评估 分 类 方法 的 性 能 ， 表 5 给 出 了 本 方法 与 


为 CE {122...201 和 


n 
tt 


格 计算 方法 ， 模 型 中 C 和 y 的 搜索 范 目 
E {2-1,...,211})。ELM 和 BPNN 方法 


究 常 用 的 分 类 模型 SVM 、ELM、BPNN 和 NB 方法 进行 了 比较 。 
的 隐 层 节点 个 数 取 什 通 。 从 表 中 结果 可 知 ， 本 文 方法 在 分 类 性 能 上 要 显著 优 于 其 它 四 种 
过 斌 次 法 获得 ,ELM 和 BPNN 隐居 节点 数 分 别 为 18 和 21 个 。 方法 ,这 是 由 于 本 方法 在 进行 利用 ICS 算法 进行 特征 选择 的 同 


Ee 
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时 还 优化 了 模型 参数 ， 同 时 构建 集成 分 类 模式 也 能 克服 单一 分 Leukemia 134.653 336.528 99.71 99.52 
类 器 易 过 拟 合 和 分 类 瓶颈 问题 ， 进 一 步 提 高 了 分 类 准确 率 。 Lung Cancer 132.879 327.434 90.79 95.45 
表 5 五 种 基于 不 同 分 类 器 的 方法 分 类 结果 比较 Lymphoma 85.696 212.177 100.00 100.00 
数据 集 本 文 方法 SVM ELM BPNN Naive Bayes Prostate 178.320 296.595 97.43 97.47 
Breast Cancer 92.98 88.62 87.83 86.60 91.75 0 | . | | 
CNS 91.87 92.33 90.05 89.39 90.00 ee a i i 
Leukemia 99.71 95.83 94.41 96.63 98.63 
Lung Cancer 90.79 80.21 78.96 82.26 85.44 -al 
Lymphoma 100.00 100.00 98.61 97.94 98.32 匡 zo0 | 
Prostate 97.43 96.17 97.05 9655 97.18 | -二 
基 分 类 器 的 个 数 选取 对 结果 是 有 影响 的 ， 本 文 对 分 类 器 集 
成 数量 进行 了 实验 性 分 析 ， 由 于 集成 分 类 器 数量 尚未 形成 统一 ee 
指导 理论 ， 多 是 通过 多 次 实验 进行 尝试 所 得 ， 本 实验 集成 分 类 了 4” 并行 模型 和 串 行 模型 在 5 折 CV 上 的 运行 时 间 比 较 
器 数量 的 取 值 范 围 设 为 [1,10], 从 中 选取 出 分 类 结果 最 佳 所 对 应 为 验证 ICS 算法 全 局 搜索 能 力 和 收敛 速度 ， 实 验 进一步 对 


的 参数 值 用 于 后 续 实验 ， 结 果 如 图 3 所 示 。 从 图 中 可 以 看 出 ， 算法 的 迭代 机 制 进行 研究 ， 以 Lung Cancer 数据 集 为 例 ， 给 出 
从 分 类 器 个 数 为 1 开始 ， 随 着 分 类 器 数量 的 增加 ， 分 类 准确 率 ”ICS 和 原始 CSA 算法 在 5 折 CV 中 ( 选 的 是 第 1 折 ) 的 最 优 适应 
有 明显 的 提高 ， 当 分 类 器 个 数 为 5 时 ， 达 到 了 最 高 的 分 类 准确 ” 度 值 变化 过 程 ， 如 图 5 所 示 。 图 中 给 出 的 是 全 局 最 优 值 的 变化 
率 ， 之 后 随 着 个 数 的 增加 ， 分 类 性 能 未 得 到 进一步 提高 ， 而 是 。 过 程 ， 将 每 一 次 迭代 中 所 有 个 体 的 最 优 适应 度 值 记录 下 来 。 
呈现 波动 状态 ， 说 明 在 集成 分 类 器 达到 一 定数 量 后 ， 即 使 继续 分 析 可 知 ， 性 能 较 好 的 是 ICS 曲线 ， 从 第 一 次 迭代 一 直到 第 
增加 分 类 器 数量 并 未 有 助 于 分 类 性 能 的 进一步 提高 。 0 次 迭代 逐步 演化 , ICS 曲线 在 初始 阶段 增长 迅速 , 在 第 23 次 
为 了 验证 并 行 模型 的 性 能 ， 将 并 行 模型 与 串 行 模型 进行 了 迭代 时 收敛 到 最 高 值 ， 之 后 趋 于 平稳 ; 适应 度 值 较 低 的 是 CSA 
比较 。 表 6 给 出 了 并 行 和 串 行 模型 在 六 组 数据 集 上 训练 时 间 以 线 , 在 第 19 次 迭代 时 收敛 到 较 高 值 , 之 后 趋 于 平稳 , 但 仍 低 
及 分 类 精度 的 比较 情况 。 从 表 中 可 以 看 到 ， 两 个 模型 在 分 类 精 。 于 ICS 曲线 值 ， 说 明 CSA 算法 有 可 能 陷入 局 部 最 优 而 未 找到 
度 指 标 上 的 结果 非常 相近 ， 它 们 的 差别 在 于 交叉 验证 过 程 数据 ， 全 局 最 优 解 。 该 现象 证 明了 ICS 算法 比 原始 CSA 算法 具有 更 
集 的 随机 选择 造成 ， 但 串 行 模型 所 花费 的 实际 明显 高 于 并 行 模 。” 优 的 全 局 搜索 能 力 和 收敛 速度 ， 能 迅速 收敛 到 全 局 最 优 解 。 
型 。 本 适应 度 曲线 
图 4 给 出 了 并 行 模型 和 串 行 模型 在 CNS 数据 集 上 5 折 CV 
上 独立 运行 的 运行 时 间 比 较 。 从 图 中 可 见 ， 在 运行 时 间 上 ， 中 
行 模型 所 花费 的 CPU 平均 运算 时 间 大 约 是 并 行 模型 PHGSA- 
KELM 的 2.6 倍 ， 在 每 一 折 过 程 中 并 行 模型 花费 的 时 间 要 远 低 
于 串 行 模型 ， 这 表明 提出 的 方法 从 并 行 算法 获 益 ， 弥 补 串 行 算 
法 在 迭代 优化 过 程 中 耗 时 过 多 ， 提 高 了 算法 的 计算 效率 。 
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| 到 $ ICS 和 CSA 算法 在 第 1 折 上 训练 得 到 最 优 适应 度 值 
下 从 图 3~5 中 的 结果 可 知 ， 本 方法 在 六 组 公共 基因 数据 集 上 
soo 分 别 取 得 了 92.98%、91.87%、99.71%、90.79%、100.00% 以 及 
96.6 97.43% 的 平均 分 类 准确 率 ， 同 时 通过 特征 选择 在 原始 高 维 数据 
上 | | 特征 空间 下 ， 分 别 得 到 了 8、9、4、9、7 和 5 个 特征 个 数 ， 极 
集成 分 类 器 数量 大 降低 了 特征 数量 ， 但 分 类 精度 却 没 有 得 到 明显 下 降 ， 说 明了 
图 3 ”集成 分 类 器 的 数量 对 分 类 性 能 的 影响 特征 选择 的 有 效 性 。 这 是 由 于 设计 评估 函数 同时 考虑 了 特征 选 
表 6 并行 模型 和 串 行 模型 的 训练 时 间 和 分 类 精度 的 对 比 择 和 分 类 器 性 能 ， 在 尽 可 能 减少 特征 数量 的 同时 最 大 化 分 类 结 
疾 扩 蘑 并 行 模型 ” 串 行 模型 ” 并 行 模型 串 行 模型 果 。 从 表 6 和 图 4 中 的 结果 对 比 可 知 ， 通 过 并 行 计算 方式 ， 将 
训练 时 间 /s 训练 时 间 /s 分 类 精度 (%) 分 类 精度 (%) 本 方法 从 模型 训练 所 花费 的 CPU 平均 运算 时 间 比 串 行 计算 时 
Breast Cancer 325.116 584.282 92.98 92.67 间 节 省 了 近 2/3， 说 明 通 过 并 行 计算 方式 能 充分 发 挥 ICS 的 


CNS 132.235 327.022 91.87 91.91 行 性 ， 提 高 算法 效率 。 
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